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In this paper, we propose a new approach for Amazigh isolated word 
recognition, based on relevant speech signed parameters’ extraction algorithm. 
In general, the approach consists on the application of adaptive orthogonal 
transforms that are characterized by a linear operator constituted of 
configurable functions, which allows the transform adaptation to the initial data 
and the reduction of feature vector dimension, that improve the isolated word 
recognition rate. 


1. Introduction 

Durant cette derniere decennie, 1’ evolution permanente des technologies de 
1’ information et de la communication a ete marquee par des progres majeurs dans 
le deployment du traitement du langage humain, notamment la reconnaissance 
automatique de la parole, pour la promotion et le developpement des langues peu 
dotees. 

De nos jours, en effet, la reconnaissance automatique de la parole est introduite 
dans de nombreuses applications ; a savoir les systemes d’apprentissage des 
langues pour ameliorer la prononciation des apprenants (Bahi, 2008), les 
applications telephoniques du type serveur vocal pour l’acces aux services 
(Barnard et al, 2009) ou l’acces a l’information a travers la recherche dans des 
bases de donnees vocales particulierement pour les personnes a besoins specifiques 
et les analphabetes surtout dans les regions rurales (Barnard et al., 20 1 0 ; Patel et 
al., 2010; Kumar et al., 2011), ainsi que les applications de transcription 
automatique des documents radio et telediffuses. 

Cependant, les technologies de la parole ne sont pas suffisamment exploitees pour 
la langue amazighe. Afin de profiter des avantages de ces technologies, nous avons 
consacre cette etude a la realisation d’un premier systeme de reconnaissance de 
mots isoles amazighes a la base des transformations orthogonales parametrables. 
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Generalement, en traitement du signal vocal, la resolution des problemes de 
reconnaissance passe necessairement par une etape d’ extraction des 
caracteristiques informatives des signaux avant d’entamer la phase 
d’ analyse. Parmi les travaux de recherche traitant 1’ extraction des caracteristiques a 
partir des mots isoles, nous distinguons deux principaux types d’approches : les 
methodes a base des theories statistiques (Bourlard et Morgan, 1993 ; Doddington, 
1985 ; Cappe, 1995) et les methodes deterministes a base des transformations 
orthogonales classiques (Walsh, Haar, Fourier, ...) (Kekre et al . , 2010 ; Ahmed et 
Rao, 1975). Neanmoins, les methodes statistiques, tel que le modele de Markov 
cache, ont atteint leurs limites dans 1’ amelioration des systemes de la 
reconnaissance automatique des signaux vocaux, malgre la disposition de corpus 
suffisamment representatifs. Tandis que les methodes spectrales ont emerge dans 
plusieurs applications du traitement du signal vocal grace a la richesse de leurs 
proprietes et la rapidite du calcul de leur algorithme (Bello et al . , 2004 ; Doets et 
Lagendijk, 2004). 

Le principe fondamental de ces methodes, particulierement celles liees a un 
systeme de fonction de base orthogonale (non parametrable) comme la transformee 
de Fourier ou la transformee en ondelettes, est d’obtenir le vecteur spectral des 
caracteristiques informatives. 

Cependant, le spectre obtenu par ces methodes est generalement trop large, vu que 
le signal vocal est un processus non stationnaire. Ce qui complique souvent la 
procedure de reconnaissance des signaux et conduit, dans certains cas, a des 
resultats insatisfaisants. D’ou la necessite d’une methode de determination des 
caracteristiques informatives du signal vocal dont le cout de calcul est optimal. 

Dans cet article, nous proposons une solution au probleme en utilisant les 
transformations orthogonales adaptables pour F extraction des caracteristiques 
informatives du signal vocal, tout en visant la realisation d’un systeme de 
reconnaissance de la parole amazighe dedie a l’apprentissage de la prononciation. 
L’utilisation de ces transformations (Abenaou et Sadik, 2011a, 2011b, 2011c) est 
favorisee par la possibility d'adaptation de la forme de leurs fonctions de base en 
fonction du caractere du vecteur etalon. Ce dernier est forme par les differents 
signaux vocaux de chaque mot. Autrement dit, a chaque classe de mots est associe 
un systeme de fonctions de base parametrables pour la projection des signaux. En 
outre, ces fonctions repondent au critere de la completude du systeme, qui assure 
les transformations des signaux sans perte de leur contenu informatif. Le systeme 
de fonctions de base forme s'exprime sous forme d’un operateur matriciel 
orthonorme factorisable, ce qui permet une transformation a la base d’un 
algorithme a calcul rapide. 

2. Methode et algorithme de synthese de l’operateur de la 
transformee orthogonale adaptable 

En traitement numerique, la transformee lineaire orthogonale d'un signal X peut 
etre representee par l’equation matricielle (1): 
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Y = — HX (1) 

N 

ou: 

X = [x\, X 2 , . . ., x,v] T est le signal initial a transformer, dont la taille N - 2" ; 

Y = |vi, y 2 , . .., Va/] 1 est le vecteur des coefficients spectraux, calcule par 
l'operateur spectral orthogonal H de dimension N x N. 

La factorisation de Good (Good, 1960) a montre la possibility de representer 
l’operateur matriciel H sous forme de produit de matrices creuses G, (2) avec une 
proportion plus elevee des zeros ce qui permet la construction des algorithmes de 
transformation rapide de Walsh, de Haar et de Fourier. Les matrices G, (/ = 1,..., n) 
sont construites par des blocs de matrices Vy de dimension minimale qui 
s’appellent noyaux spectraux (Abenaou et Sadik, 2011a). 
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D’ou la relation (1) peut s’ecrire comme suit : 

Y=—HX=—G,G 1 ...GX=—t\G i X (3) 

N N N i=i 


En definissant les parametres angulaires <p U] et 0 Uh les operateurs de transformations 
orthogonales H peuvent etre formes avec des fonctions de base complexes, ou avec 
des fonctions reelles lorsque 0 \ j = 0. Le calcul des parametres (p-y depend du choix 
des structures des noyaux spectraux Vy (Abenaou et Sadik, 2011c). Ce qui permet 
de generer un systeme de fonctions de base adaptable a une classe de signaux 
donnee. 

Or, dans la perspective d’ assurer un calcul rapide, dans ce travail, les noyaux 
spectraux dans les matrices G,- sont constitues de telle sorte qu’ils contiennent une 
proportion plus importante de zeros, tel qu’il est explique ci-dessous. 
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L’ adaptation de l'operateur // ( 1 ) est assuree par la condition : 


-H a Z e=Yc=[y c ,m...0f, y c ,* 0 
N 


( 4 ) 


ou : 


Y c est le vecteur cible qui construit le critere d’ adaptation de l’operateur 

H a , 

Z ft represente le vecteur etalon d’une classe calcule par la moyenne des 
estimations statistiques des enregistrements de plusieurs signaux vocaux, 
d’un meme mot, prononces par divers locuteurs ; 

H a est l’operateur adaptable a synthetiser. 

La synthese de l’operateur adaptable H a a 1’ etalon Z et , pour une classe donnee, 
consiste a calculer les parametres angulaires <p U) des matrices G, selon la condition 
(4). La procedure du calcul des parametres est illustree par la figure 1 dont le 
principe est base sur l’algorithme iteratif introduit par la figure 2, qui permet le 
calcul du vecteur cible Y c selon la relation : 

Yi = GiYi -i 

Le calcul du vecteur Y c permet l’obtention de l’operateur adapte H a . Pour la 
reconnaissance des signaux, nous devons disposer de deux ensembles 
d’ enregistrements de signaux vocaux pour chaque mot. Le premier sert a calculer 
1’ etalon Z etji du mot i (classe i) et permet de generer la synthese de l’operateur. 
Tandis que le deuxieme ensemble sert a former 1’ etalon spectral Y eU du mot i, qui 
est obtenu par la projection des enregistrements du deuxieme ensemble dans les 
bases adaptables H a . 
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Figure 1 : Schema illustratif de la procedure de synthese de 1’operateur de la 

transformee adaptable 
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(pij = arctg 




Figure 2 : Schema de I’algorithme de synthese de I’operateur de la transformee 

adaptable 


La reconnaissance d’un vecteur Z consiste a calculer son spectre F, dans chaque 
base H ai . Pour definir le mot correspondant au vecteur F, des caracteristiques 
informatives, nous nous appuyons sur une regie de decision formee par une 
combinaison de deux criteres : 
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la distance euclidienne 8, = II F, - Y el:i II et 

la difference de l'energie concentree dans leurs premiers coefficients de la 
decomposition e f = | y[,i ~ ylet.il 

Ainsi, le vecteur F, correspondra au mot i si 8; = min (8k=i..M) et 8; = min (Sk=i..M), 
avec M est le nombre de classes. Cette procedure de reconnaissance est illustree par 
la figure 3. 



Figure 3 : Procedure de reconnaissance 

3. La reconnaissance de la parole amazighe 

Malgre l’avenement des technologies de la reconnaissance de la parole pour 
1’ anglais, le francais et l’arabe, des recherches approfondies au profit de la langue 
amazighe semblent insuffisantes et la mise en oeuvre de ses applications est presque 
inexistante. D’ou l’interet de la realisation d’un systeme de reconnaissance de la 
parole en amazighe, en particulier un systeme qui pourra etre dedie a 
l’apprentissage de la prononciation. Neanmoins, dans la perspective d’atteindre cet 
objectif, nous avons recours a un corpus qui caracterise la langue parlee. 

3.1. Corpus 

Vu la rarete et la non disponibilite des ressources electroniques en langue amazighe, 
particulierement les corpus audio, nous avons recueilli, pour une premiere 
parametrisation de notre systeme de reconnaissance de mots amazighes isoles, un 
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corpus de donnees vocalees multi-locuteurs. Ce dernier est constitue de 140 
enregistrements des chiffres de 1 a 10, realises par trois locuteurs de differentes 
varietes regionales (Tarifit, Tamazight, Tachelhit). 

En outre, ce corpus est regroupe en trois ensembles : le premier servira a calculer 
l’etalon de chaque mot pour generer la synthese de l’operateur ; le deuxieme, a 
former les etalons spectraux des mots tandis que le troisieme sera utilise pour 
evaluer et analyser les performances de l’approche proposee. 

3.2. Mesures devaluation 

Afin d’ evaluer la performance de notre systeme de reconnaissance, nous utilisons 
la mesure de taux d’ exactitude par mot (Word Accuracy, WA), definies par la 
formule suivante (Sopheap, 2010) : 

Taux d’exactitude = j/h *100 (5), 

oil j correspond au nombre de mots justes et h est le nombre total de mots. 

3.3. Resultats experimentaux 

Pendant V experience, nous avons utilise des enregistrements de signaux vocaux 
des mots amazighes isoles prononces par differents locuteurs de diverses regions, 
ce qui a induit a un chevauchement assez considerable entre les classes des mots. 
Pour evaluer l’efficacite du systeme propose, un test a ete effectue pour la 
reconnaissance d’un meme mot amazighe prononce par divers locuteurs de 
diverses regions. La figure 4 illustre la projection du signal vocal du mot 
« ©£l (sin) » (deux) dans les bases classiques (Walsh, Haar et Fourier). D’apres 
cette figure, nous constatons que les spectres calcules du mot sont trop larges. 
Cependant, en utilisant la methode proposee, nous remarquons une convergence 
rapide du spectre obtenu a l’aide des fonctions de base parametrables. 

Par ailleurs, grace a P application des transformations orthogonales parametrables 
aux bases synthetisees, nous constatons que : 

l’energie de la projection du signal dans la base adequate est concentree 
dans les premiers composants du spectre (figure 4) ; et 

la projection du signal d’un mot donne, qui caracterise une classe, dans 
d’autres classes (representant d’autres mots amazighes) permet l’obtention 
de spectres assez larges dont l’energie est dispersee sur plusieurs 
coefficients (figure 5). 

Ce qui nous permet de reconnaitre le mot prononce avec une grande certitude. 

En effet, les resultats de l'etude experimentale de la methode elaboree pour la 
reconnaissance des mots amazighes isoles indiquent, selon les courbes de la figure 
6 qui presente les taux de certitude de la reconnaissance des signaux, une efficacite 
considerable par rapport aux autres methodes qui sont basees sur l'application des 
transformations spectrales dans les bases traditionnelles (Walsh, Haar et Fourier). 
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Figure 6 : Resultat de la reconnaissance lors de V application de divers systemes 

de fonctions de base 

A partir de ces courbes, nous pouvons constater que dans le cas de l'utilisation des 
bases traditionnelles, la certitude de reconnaissance des signaux des mots 
amazighes ne depasse pas 87%. Tandis que dans le cas ou nous utilisons les 
fonctions de bases adaptables, le taux de reconnaissance des signaux s’eleve a 96% 
lorsque la taille de l'intervalle de 1' analyse est egale a 512. 

Ce qui peut etre explique par le fait que : 

la methode proposee est basee sur l'utilisation des fonctions de bases 
adaptables selon le caractere du signal vocal du mot prononce par les 
divers locuteurs des differentes regions ; et 

la propriety de selectivity des fonctions de base synthetisees simplifie la 
distinction des signaux dans l'espace des caracteristiques informatives. 

Conclusion 

Dans la presente contribution, nous proposons un systeme de reconnaissance 
automatique des mots isoles de la langue amazighe basee sur les transformations 
orthogonales parametrables. Ce dernier est compose de deux sous-systemes : un 
sous-systeme d’apprentissage et un sous-systeme de reconnaissance. Le sous- 
systeme d’apprentissage est confu a la base d’un corpus multi- locuteurs de la 
parole amazighe de differentes regions afin de prendre en consideration la diversity 
de la prononciation d’un meme mot et de contribuer a la stability des 
caracteristiques statistiques dans le calcul de l’etalon de chaque mot. En outre, ce 
sous-systeme nous offre la possibility de synthetiser des fonctions de base 
adaptables de chaque mot avec une propriety de selectivity plus importante, ce qui 
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nous a permis d’extraire les caracteristiques les plus informatives de chaque mot 
prononce independamment du locuteur. 

Suite a 1’ etude comparative realisee sur le systeme a base des transformations 
orthogonales parametrables et sur les transformations orthogonales de Walsh, Haar 
et Fourier, nous avons pu atteindre un taux de reconnaissance plus eleve qui tend 
vers les 96%. Cependant, nous considerons que ce travail est une premiere 
initiative pour la realisation d’un systeme de reconnaissance de la parole amazighe 
assurant l’apprentissage de la prononciation, qui suscite l’interet de recueillir un 
corpus oral riche et varie compose de mots amazighes dedies a l’apprentissage de 
la langue. 
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